AI资讯新闻榜单内容搜索- transform

在WAIC现场，全球首个拥有「原生记忆力」的大模型亮相，但不是Transformer

国内 AI 创企 RockAI 提出的非 Transformer 架构 Yan 2.0 Preview。这个架构极大地降低了模型推理时的计算复杂度，因此可以在算力非常有限的设备上离线运行，比如树莓派。

来自主题: AI资讯

8027 点击 2025-07-26 19:51

首篇潜空间推理综述！模型思考不必依赖Token，带宽暴增2700+倍

大模型在潜空间中推理，带宽能达到普通（显式）思维链（CoT）的2700多倍？

来自主题: AI技术研报

7858 点击 2025-07-16 15:26

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

近年来，随着扩散模型（Diffusion Models）和扩散 Transformer（DiT）在视频生成领域的广泛应用，AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型，已经能够生成结构清晰、细节丰富且高度连贯的长视频内容，为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变革。

来自主题: AI技术研报

6557 点击 2025-07-14 10:42

告别Transformer！北大、北邮、华为开源纯卷积DiC：3x3卷积实现SOTA性能，比DiT快5倍！

当整个 AI 视觉生成领域都在 Transformer 架构上「卷生卷死」时，一项来自北大、北邮和华为的最新研究却反其道而行之，重新审视了深度学习中最基础、最经典的模块——3x3 卷积。

来自主题: AI技术研报

6869 点击 2025-07-14 10:25

前 OpenAI 研究员 Kevin Lu：别折腾 RL 了，互联网才是让大模型进步的关键

「停止研究 RL 吧，研究者更应该将精力投入到产品开发中，真正推动人工智能大规模发展的关键技术是互联网，而不是像 Transformer 这样的模型架构。」

来自主题: AI资讯

7240 点击 2025-07-13 11:23

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

「Tokenization（分词）是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」

来自主题: AI技术研报

5329 点击 2025-07-10 13:16

Meta新注意力机制突破Transformer上限，还用上了OpenAI的开源技术

Meta挖走OpenAI大批员工后，又用OpenAI的技术搞出新突破。新架构名为2-Simplicial Transformer，重点是通过修改标准注意力，让Transformer能更高效地利用训练数据，以突破当前大模型发展的数据瓶颈。

来自主题: AI技术研报

6413 点击 2025-07-08 12:01

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

来自主题: AI技术研报

6392 点击 2025-07-06 14:56

AI Agent、传统聊天机器人有何区别？如何评测？这篇30页综述讲明白了

自从 Transformer 问世，NLP 领域发生了颠覆性变化。大语言模型极大提升了文本理解与生成能力，成为现代 AI 系统的基础。而今，AI 正不断向前，具备自主决策和复杂交互能力的新一代 AI Agent 也正加速崛起。

来自主题: AI技术研报

5174 点击 2025-07-03 10:31

95后，边改造业务边发AI顶会论文，是怎样的体验？

在 AI 时代的浪潮下，顶尖人才影响力空前高涨，其地位更被市场推升至了前所未有的高度。无论是谷歌 Transformer 论文八子，还是从 OpenAI 出走的科学家，他们要么自立门户，拿到亿级投资、百亿级估值，或者跳槽到他处，凭己之力拉近企业间的技术代差甚至影响竞争格局。

来自主题: AI资讯

6916 点击 2025-07-01 10:50